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Анотація. Задача кластеризації досить часто зустрічається в інтелектуальному аналізі даних різної при- 
роди. Для вирішення цієї проблеми існує велика кількість відомих методів та алгоритмів, які здебільшого пра- 
цюють в пакетному режимі, в умовах, коли вся вибірка даних відома заздалегідь та не змінюється з часом. Ці 
методи складні в програмній реалізації та не позбавлені недоліків. 

Мета роботи полягає в розробці адаптивного метода кластеризації викривлених даних на основі стратегії 
найближчого прототипу-центроїда з використанням еволюційних процедур, якій вирішує задачу в онлайн-ре- 
жимі, тобто коли дані надходять послідовно в реальному часі та характеризуються чисельною простотою та ви- 
сокою швидкодією. 
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Розглянуто задачу адаптивної нечіткої кластеризації викривлених збуреннями та викидами даних, які 
представлені у вигляді масивів векторних даних на основі стратегії найближчого прототипу - центроїда з вико- 
ристанням оптимізаційних процедур. В основі запропонованого підходу лежить онлайн ймовірнісна процедура 
нечіткої кластеризації із функцією належності спеціального вигляду та еволюційний алгоритм котячих зграй. 

Особливістю запропонованого адаптивного методу кластеризації викривлених даних на основі стратегії 
найближчого прототипу - центроїда з використанням еволюційних процедур є обчислювальна простота, висока 
швидкість та точність отриманих результатів, що підтверджуються експериментальними дослідженнями. 

Запропоновано модифікацію, введену на основі процедури оптимізації котячих зграй з покращеними вла- 
стивостями за рахунок використання стохастичної оцінки градієнта. Запропонований метод є простим у чисель- 
ній реалізації, працездатним у випадку, коли дані пошкоджені та надходять послідовно в онлайн-режимі, що 
підтверджено експериментально. 

Ключові слова: еволюційний алгоритм котячих зграй, прототип-центроїд, адаптивна нечітка кластериза- 


ЦІЯ. 
Вступ Стратегія найближчого  прототипу- 
Проблема нечіткої кластеризації ви- центроїда може бути розглянута в якості гі- 
кривлених даних достатньо поширена се- брида стратегії оптимального розширення 
ред багатьох сфер сьогодення і є невід'єм- та часткових відстаней і складається з пос- 
ною частиною загального напрямку обчис- лідовності кроків: 
лювального інтелекту. Для вирішення цієї 
задачі було запропоновано безліч методів 1Завдання початкових умов для роботи 
та алгоритмів інтелектуального аналізу да- методу: 0 2 0, т,необхідної точності є » 0 


них, найбільш ефективними серед яких є 
методи, що базуються на штучних нейрон- 
них мережах, м'яких обчисленнях тощо |1- 
3|. Усі ці методи працездатні лише у випад- 


прототипів  (центроїдів) кластерів м», 


кількості епох г - 1,2,..0. 


ках, коли дані надходять на обробку у паке- 2.Розрахунок рівнів належності: 

У . 1 
тному режимі й не змінюються з часом. усе У МЕРИ у РРУЧИ ре 
Тому розробка процедур адаптивної нечіт- і т ; 


кої кластеризації викривлених даних, що 
вирішують задачу в онлайн-режимі, тобто 3.Розрахунок центроїдів кластерів: 
коли дані надходять послідовно в реаль- 
ному часі, та характеризуються чисельною м мч Р 

з (тя) ша (ті) (ті) Ат) 
простотою та високою швидкодією є актуа- М Що; (0) Мо «ю) я7(Ю 
льною. 


4.Перевірка умов останова: 


Адаптивна нечітка кластеризація | сі аа 
. з му 
викривлених даних на основі стратегії якщо Її 9 4 4 
найближчого прототипа-центроїда або т - 0, останов; 
2 2 


Вихідною інформацією є дані, що 
представлені у вигляді (М х п) таблиці "об/- 


і й ; ; 
єкт-властивість" яка містить інформацію 5.Оцінка спотворених спостережень 


про М об'єктів, описаних у вигляді (1 х п) (тот) 
шляхом знаходження прототипу Ух, 


інакше йти до кроку 5. 


векторів - ознак. Результатом кластеризації 


вихідних даних є розбиття початкової вибі- найближчого до ХК) в сенсі часткової ві- 


рки на т класів з відповідним рівнем нечі- дстані 
ткої залежності М, (К) К-того вектора-спо- 
п 
2 а п - 2 

стереження до р) (х2(ю), у) ер а У (Ю- му) б 

Кк. ізі 
4-то кластера, де 1242 т. Вихідні дані за- 
здалегідь нормуються в гіперкуб |- 1,1". тобто знаходження 


4 


мі заго пір ,Скдуметі), р (Хуст? ) 
ч 
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і заміна відсутніх спостережень Х(К) ко- 
(ТУТ) - 1. (ЧІ) 
ординатами х  (К)-и 


Далі йти до кроку 2. 
Далі можна записати стратегію най- 
ближчого прототипу у рекурентній формі 


ПАН 


ее 
Сі 


АР (Ю 


уз З Ями «обу )| 


де ЗО(Юе и (Ю, 
му (є) я м (ЮНПОЄ (цю) (9(ю -и, (0) ма - 1,2, т. 


Можлива стратегія найближчого про- 
тотипу-центроїда у загублених спостере- 
женнях може бути записана у вигляді пос- 
лідовності кроків: 


1Завдання початкових умов для роботи 
методу: 0» 0, т, необхідної точності 


є » 0 прототипів (центроїдів) кластерів мг, 
, кількість епох г - І,2,..0. 


2.Розрахунок рівнів належності: 


1 


п Юа бе 
ук очно 


(т) 
і. 


3.Розрахунок центроїдів кластерів: 


З в 
ХО) ХЮ 
"(Ю -| Я М 
Хига) 
Я 
Каі 
4.Перевірка || умов останова: | якщо 
Їмо -у/? «єМд або т «0, останов; ін- 


акше йти до шага 5. 


5.Оцінка відсутніх спостережень шляхом 


знаходження прототипу у" 


найближ- 
чого до Х(К) в сенсі часткової відстані 


п 


ру (Хід) УЮ зн) б 


У іні 


тобто знаходження 
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мі зага тів|р "(кід,міпт),.р (хо, іо) 


і заміна відсутніх спостережень Х(К) ко- 


ординатами Х"(Ку вим. 


6.Розрахунок скалярного параметра відс- 
тані 
Ю тя В 2 
Мого) | 


(тя) || Кеї 

й о М В 
2(0,"(0) 
Кеі 


ХР(Ю бр ми? 


7.Далі йти до кроку 2. 


Аналогічно ймовірнісній адаптивній 
кластеризації на основі стратегії найближ- 
чого центроїда можна організувати процес 
можливісної кластеризації у вигляді |10). 


І 
нн У 
Р зр 
Он ОЇ 
їч (т) 
й 


муку м, (ЮП(Є з(ОФю)" (9) - м (0) Уа еиат, 
Що) 


(тні) | ре 
о З х В 
Хо срі) 


ера 


кою ЮЇ 


Оптимізаційна процедура на основі 
еволюційного алгоритму котячої зграї 

Для знаходження локальних екстре- 
мумів у вихідних даних, що надходять на 
обробку методами адаптивної нечіткої кла- 
стеризації даних на основі стратегії найбли- 
жчого прототипу - центроїда доцільно ви- 
користовувати еволюційні алгоритми рою 
частинок |4-6). Одним з найшвидших алго- 
ритмів рою частинок є, так званий, алго- 
ритм котячої зграї |7|, який підтвердив 
свою ефективність у вирішенні широкого 
кола задач від елементарних завдань Раїа 
Міппє до більш складних задач: Брупатіс 
РДаїа Міпіпеє, Раїа 5йеапт Міпіпе, Віз Рака 
Мішпє, УМеб Міпіпє, Техі Міпіпє тощо. 

Даний алгоритм використовує модель 
поведінки котів у зграї (С5), яка склада- 
ється з О особин, при цьому вважається, 
що кожен кіт саї, (р - 1,2... 0) зграї може 


знаходитись в одному з двох положень: ре- 
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жим пошуку (9М), який пов'язаний із пові- 
льними рухами незначної амплітуди біля 
вихідної позиції або режим трасування 
(ТМ), який визначається швидкими стриб- 
ками з великою амплітудою та дозволяє ви- 
вести кота з локального екстремуму, якщо 
він туди потрапив. Поєднання цих станів 
кота дозволяє з більшою ймовірністю від- 
шукати глобальний екстремум у порівнянні 
з традиційними методами багатоекстрема- 
льної оптимізації |8, 9). У загальному випа- 
дку обидва ці режими для кожного з котів 
можуть бути описані процедурою оптиміза- 
ції (11, 131: 


саї (74 Ї) з са, (т) - О(саі (г) - саї (т - 1) -тЕ, (саї, (г) 1.5), 

де саї, (т 1-1) - стан (режим) кота р на 

т - ітерації, а - параметр, що визначає інер- 
ційні властивості в режимі трасування, 

1, - крок режиму пошуку, УЕ(саї, (т)) гра- 
дієнтна оцінка цільової функції методу кла- 
стеризації, (г) - випадкова компонента, 
яка вносить додаткові стохастичні рухи в 
режимі трасування, 7; - параметр, що ви- 


значає амплітуду цих рухів. 

Цей підхід забезпечує пошук глобаль- 
ного екстремуму у випадку, коли кількість 
котів у зграї достатня. 


Експериментальні дослідження 

Експериментальні дослідження Зза- 
пропонованого методу адаптивної нечіткої 
кластеризації викривлених пропусками та 
викидами даних на основі стратегії найбли- 
жчого прототипу - центроїда з використан- 
ням еволюційних процедур було проведено 
на чотирьох різних вибірках даних, які були 
штучно пошкоджені викидами та пропус- 
ками. У таблиці І наведено характеристики 
вибірок та кількість пошкоджених даних у 
відсотках (9), у таблиці 2 наведені параме- 
три для оптимізаційного методу котячих 
зграй (С50). 

Порівняльні експерименти запропо- 
нованого методу адаптивної нечіткої клас- 
теризації викривлених пропусками та вики- 
дами даних на основі стратегії найближ- 
чого прототипу - центроїда з використан- 
ням еволюційних процедур проводились з 
більш відомими алгоритмами кластериза- 
ції, такими як алгоритми К - середніх та 
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к - прототипів та вимірялись за чотирма ха- 
рактеристиками: Е-Меазиге, Капа Шавх, 
Уассага Іадех і Ентропія. Усі ці чотири по- 
казники мають значення від 0 до 1. 


Таблиця 1. Характеристики вибірок та кількість 
пошкоджених даних у відсотках (У) 


Вибірка 


лених даних (9) 


Кількість кластерів 
Кількість атрибутів 
Кількість викрив- 


Кількість спостере- 
жень 


ма 
о 
а 
ул 
мл 
а 
о 


Нераціїє 


ул 
о 


Сапсег 9 683 


Мо 

-- 

о 
мо 
сл 


За: Тоє Неагі 


с|ю|рю|ю 
м 
оо 
ю 
ри 
- 
сл 


Розі Орегайуе Райепі 


Таблиця 2. Параметри для оптимізаційного методу 
котячих зграй (С50) 


Параметри Значення 
5кр Випадково |0,1| 
Зеекіпя тетогу 5 
Рооі! (5МР) 


Розмір популяції Кількість кластерів 


Випадково в 
т 5 Й 
діапазоні 10,1) 


(5 Сопз5і 


Випадково в 
діапазоні |0,1| 
Вручну 


5РС 


Кількість ітерацій 


В Е-Меазбиге, Капа Шаесх та Уассага 
Ілдех значення одиниці вказує, що кластери 
даних абсолютно однакові, а збільшення 
значень цих показників свідчить на кращу 
продуктивність. У таблицях 3, 4, 5 наведено 
результати порівняльної роботи відомих 
методів кластеризації даних із запропоно- 
ваним методом адаптивної нечіткої класте- 
ризації, викривлених пропусками та вики- 
дами даних основі стратегії найближчого 
прототипу - центроїда з використанням ево- 
люційних процедур (АЕС РСЕР). Як видно 
із порівняльних таблиць, запропонований 
метод демонструє достатньо високі показ- 
ники, незалежно від вибірки та якості да- 
них, на відміну від більш відомих методів 
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кластеризації даних, показник якого най- 
ближче до одиниці, що само по собі свід- 
чить про високу якість кластеризації даних. 


Таблиця 3. Порівняльні результати методів за 
характеристикою Е-Меавиге 


з К- К- 

Вибірка Меапз | Ргокоїуре АРС РСЕР 
Нерайів 0.75 0.36 0.88 
Сапсег 0.75 0.34 0.86 
та: 1.05 
Неаті 0/7 0.88 0.89 
Ровзі 
Орегайує 0.78 0.87 0.88 
Райепі 


Таблиця 4. Порівняльні результати методів за 
характеристикою Вапа Паєх 


Вибірка кана дела АЕС РСЕР 
Нерайів 0.72 0.73 0.14 
Сапсег 0.53 0.56 0.62 
ба: 1.05 
Неай 0.56 0.58 0.59 
Ро58і 
Орегайує 0.41 0.45 0.48 
Рацепі 


Таблиця 5. Порівняльні результати методів за 
характеристикою Уассага Падєх 


Вибірка | К-Меапз | К-Ргогоїуре | АЕС РСЕР 
Нерайів 0.62 0.63 0.65 
Сапсег 0.45 0.46 0.48 
За: 05 
Най 0.54 0.56 0.71 
Розі 
Орегайує 0.33 0.35 0.38 
Рацепі 


Таблиця 6. Порівняльні результати методів за 


ентропією 

Вибірка | К-Меапз | К-Ргоїогуре | АЕС РСЕР 
Нерагійя 0.52 0.52 0.52 
Сапсег 0.45 0.43 0.45 
Заг 058 
Неаті 0.45 0.44 0.43 
Розі 
Орегайує 0.42 0.41 0.40 
Рацепі 


Зменшення значень виміру ентропії 
свідчить про кращу продуктивність. Вихо- 
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дячи з цього, робота методу адаптивної не- 
чіткої кластеризації викривлених пропус- 
ками та викидами даних на основі стратегії 
найближчого прототипу - центроїда з вико- 
ристанням еволюційних процедур 
(АЕС РСЕР) на основі ентропії значно 
вище, ніж К-Меап5 і К-Ргоїогуреє для 
всього набору даних, що продемонстровано 
в таблиці 6. 


Висновки 

Розглянуто задачу адаптивної нечіт- 
кої кластеризації викривлених пропусками 
та викидами даних на основі стратегії най- 
ближчого прототипу - центроїда з викорис- 
танням еволюційних процедур. Оскільки 
цільові функції нечіткої кластеризації в за- 
гальному випадку є багатоекстремальними, 
запропоновано уточнювати отримані цен- 
три кластерів за допомогою еволюційного 
методу котячих зграй. Запропоновано мо- 
дифікацію, введену на основі процедури 
оптимізації котячих зграй з покращеними 
властивостями за рахунок використання 
стохастичної оцінки градієнта. Запропоно- 
ваний метод є простим у чисельній реаліза- 
ції, працездатним у випадку, коли дані по- 
шкоджені та надходять послідовно в опійе- 
режимі, що підтверджено експеримента- 
льно. 
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